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INTRODUCTION. 


Le but de la systématique humaine est non pas simplement 
de classer les êtres vivants, mais également de détecter « l’évo- 
lution en action » (12). 

Cette conception nous conduit : 

a) à rechercher l’origine de la continuité et de la discontinuité 
des groupes humains; 

b) à décrire ces groupes au point de vue de leur continuité et 
de leur discontinuité dans le temps et dans l’espace. 

a) La génétique constitue la base des recherches sur l’origine 
de la continuité et de la discontinuité des groupes humains. 


Un groupe continu résulte de ce que les homozygotes pour n 
caractéres ont des descendants homozygotes pour ces mémes 
caractères, tandis que la discontinuité semble causée princi- 
palement par les mutations. Suivies de sélection et d’isolement, 
les mutations peuvent scinder une population homozygote (pour 
n caracteres) en deux groupes bien différenciés. 

Cependant, même la connaissance complète de la formule 
génétique ne suffirait pas toujours a dévoiler les origines d'une 
population. En effet, remis en présence, deux groupes diffé- 
renciés peuvent se refondre et donner une population mélangée. 


(*) Communication présentée au IIIm® Congrès National des 
Sciences, Bruxelles, 1950. 
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Au début, de nombreux caracteres liés révélent cette double 
origine. Mais, si les couples se forment au hasard, ces liaisons 
disparaissent au fur et á mesure que les générations se sui- 
vent (2). Ainsi, sauf par son histoire, cette population mélangée 
ne se distingue en rien d'un groupe où, dès leur apparition, les 
mutants se seraient croisés avec les types primitifs, sans sélec- 
tion ni isolement. 

Pour retrouver les origines d’une population, l’anthropologie 
devra donc avoir recours à d’autres disciplines que la génétique 
(sociologie, ethnographie, histoire, préhistoire). 

Les mathématiques appliquées aux problèmes de génétique, 
de sélection et de migration forment un domaine particulier, 
et combien vaste, où les beaux travaux de F. Bernstaın, R. A. 
Fisher, J. B. S. HALDANE, L. S. PENROSE, S. WRIGHT peuvent 
servir de guide; nous n’en parlerons pas ici. Signalons cepen- 
dant, d’une part, les récents progrès de la génétique animale 
dans les questions de la transmission héréditaire de certains 
caractères continus — tels, chez Drosophila melanogaster, Vin- 
terruption d’une veine de Vaile (1), ou le nombre de poils 
abdominaux (18); d’autre part, en génétique humaine, les 
tentatives pour séparer les caractères continus mésolabiles et 
mésostabiles, en se basant, soit sur des taux de croissance (22), 
soit sur des enquêtes de jumeaux. 

b) Description de la continuité et de la discontinuité 
des populations. 

La connaissance de l’hérédité des caractères anthropologiques 
permettrait une description précise de Humanité. Privé de 
cette connaissance, nous devons cependant décrire les popula- 
tions avant que certains groupes distincts n’aient eu le temps 
de se refondre en populations où l'équilibre des gènes arrive A 
masquer l’hétérogénéité initiale. 

En analysant par la biométrie les caractères utilisés en systé- 
matique classique et dont la transmission reste inconnue, on 
arrive a jeter quelque lumiére sur la composition des groupes 
humains. Celle-ci est éclairée dans sa genése par la paléonto- 
logie dont l’emploi exclut également la génétique. 


La note actuelle a pour objet de signaler 
les méthodes statistiques qui facilitent la 
description de la continuité et de la discon tE 
nuité des divers groupes humains. 


1. — Groupes. Précisons d’abord ce que nous entendons 
ici par groupe ou population : c'est un ensemble d'hommes 
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définis par leur habitat, leur condition sociale, leur langue, 
leur religion, leur âge, etc..., mais par aucun caractère 
physique. Ceux-ci servent á décrire le groupe, non pas a 
le sélectionner. En effet, comme l’étude de Panthropologie con- 
cerne justement les caractères physiques, nous devons choisir 
uos sujets sur une base non morphologique, afin de ne pas 
faire une pétition de principe. 

Ajoutons encore que les groupes ainsi définis selon des cri- 
téres objectifs, ne nous sont connus en pratique que par des 
échantillons. Nous renvoyons le lecteur aux ouvrages de R. A. 
FisHer (8) et M. G. KENDALL (13), pour les questions très 
importantes d’échantillonnage et d'estimation. 


2. — Caracteres. Pour la facilité de notre exposé, nous 
classons les différents caractères utilisés en systématique dans 
le tableau suivant : 


Caractères discontinus Caractères continus 


Caractères qualitatifs Groupes sanguins Couleur de la peau 
Nature du cheveu 


alee | 
: Br 4,3 y 
Caracteres quantitatifs 
Taille 
E 


Les caractères discontinus qualitatifs dans 
une population sont donnés avec leurs fréquences : fréquence 
de gènes (groupes sanguins) ou fréquence de phénotypes (na- 
ture du cheveu), suivant que la transmission mendélienne est 
connue ou non. 

Pour faciliter le traitement biométrique, il est avantageux 
de transformer les caractéres qualitatifs continus 
en caractéres quantitatifs continus (en exprimant par un nom- 
bre le degré de pigmentation de la peau) (4) et (18). On tient 
mieux compte ainsi de la réalité biologique qu’en passant a des 
caractéres qualitatifs discontinus par des subdivisions artifi- 
cielles (en groupant grossièrement les peaux claires et les 
peaux foncées) (*). 


(*) Ajoutons qu'il faut parfois considérer certains caractères 
qualitatifs continus comme pluridimensionnels : ıl se peut qu’un 
seul nombre ne suffise pas pour caractériser la couleur de la peau; 
qu'il en faille par exemple un pour la teinte, un autre pour linten- 


sité. 
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Les caractéres continus qualitatifs sont ainsi assimilés aux 
caractéres continus quantitatifs dont le type est 
la taille. Bien qu’influencée par le milieu, la taille se transmet 
des parents aux enfants comme en témoigne une corrélation 
positive, mais on ignore par quel mécanisme (10). 

On peut décrire une population par la fonction de dis- 
tribution de ses différents caractéres continus. A chaque 
ensemble de valeurs particulières des variables correspond 
alors une probabilité, faible pour les valeurs extrémes des carac- 
téres, plus forte vers le centre, et il est essentiel de rechercher 
si la distribution présente plusieurs points de densité maxima, 
c’est-à-dire de probabilité maxima. 

Le nombre variable de pois dans une cosse (20) est un bon 
exemple de caractére discontinu quantitatif; on 
n’en utilise guére en anthropologie. Bien entendu, la nécessité 
de grouper les données pour la mesure fait qu’en pratique on 
passe fréquemment des variables continues aux variables dis- 
continues. 


3. — Composition d’un groupe. Pour décrire un 
groupe par un caractére discontinu, tel la nature des 
cheveux, on donne simplement la fréquence des divers phénotypes 
observables. Mais lorsqu’il s’agit d’un caractére a hérédité 
connue (groupes sanguins), on peut passer de la fréquence des 
phénotypes a celle des génes. Les relations entre les fréquences 
des gènes allélomorphes montrent si le groupe a atteint l’équi- 
libre génique vers lequel doit tendre une population panmictique 
fermée (2). Si cette stabilisation ne s’est pas effectuée, on peut 
en rechercher la cause : une immigration récente, un isolement 
religieux ou social avec mariages préférentiels, etc... 

La description d'un groupe à l’aide de caractères con- 
tinus se fait, nous l’avons vu, par la fonction de distribution 
simultanée, En étendant les résultats de la génétique classique 
aux caractères continus, très mal connus à ce point de vue, 
nous admettrons que deux sommets dans la fonction de distri- 
bution indiquent un mélange récent ou l’existence de mariages 
préférentiels, l’état d'équilibre de la population donnant une 
fonction de distribution à un sommet. Cette hypothèse, assez 
naturelle, n’a jamais pu être vérifiée. 

Il y a une méthode graphique très simple pour déceler un 
double sommet, On établit le polygone de fréquence pour chaque 
caractère, en prenant un petit intervalle de groupement; on 
retient les variables accusant nettement deux sommets. Placés 
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deux par deux dans des graphiques de corrélation, ces variables 
donnent des nuages de points, dans lesquels on táche de trouver 
deux zones distinctes de densité maxima. Les renseignements 
tirés de tels diagrammes suffisent quelquefois et évitent le calcul 
effectif de la fonction de distribution. 


4. — Comparaison de deux groupes. 


Méthode graphique. On peut opérer exactement de la 
méme facon pour comparer deux populations. On choisit, parmi 
les caractéres continus, ceux dont les distributions ne se recou- 
vrent pas et on les place deux par deux dans des diagrammes 
a double entrée, L’éloignement des deux nuages met en relief 
la différence entre les deux populations. 


Tests et mesures de divergence. R. A. FISHER (5), 
C. C. Sevtzer (21) et P. ©. MAHALANOBIS (17) ont attiré l'at- 
tention sur la distinction à faire entre un test et une mesure 
de divergence. Cette distinction est essentielle : elle permet un 
usage judicieux des formules proposées et met en lumiére les 
défauts de coefficients anciennement employés, comme celui de 
ressemblance raciale » (19), qui fut utilisé souvent comme 
mesure de divergence alors qu'il est en réalité un test. 

Rappelons, par un exemple simple, en quoi consiste cette 
différence. Deux échantillons d’effectifs n et m sont tirés de 
deux populations; les moyennes et les déviations standard cal- 
culées pour un caractére continu, la taille par exemple, sont 
respectivement m et m’, s et 8’. 

Les populations sont-elles réellement différentes ou bien 
Vécart entre les moyennes d = m — m’ est-il dû aux hasards de 
Véchantillonnage? La réponse est donnée par un test de 
divergence, par exemple celui de STUDENT. On fait l’hypo- 
thèse de travail suivante, commune à tous les tests de 
divergence: les deux populations sont identiques. L’esti- 

ns + ns? 


mation de leur variance commune est alors oè = or 
n+ nm? — 2 


m — m 
et le t de STUDENT = . Tous les manuels de 


Te V1/n F 1/n? 
biométrie contiennent des tables (pour le cas de variables nor- 
malement distribuées) où l’on trouve, en regard de t, la pro- 
babilité correspondante pour n + m’ — 2 degrés de liberté (9). 
Une probabilité inférieure à 0,05 indique que la différence d est 
significative. Si la probabilité est supérieure à 0,05, on admet 
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l'hypothèse de l'identité des deux populations; cependant, une 
probabilité méme trés élevée n’est pas une preuve formelle 
d’identite, elle indique simplement qu'on n’a aucune raison de 
rejeter l'hypothèse adoptée. 

La quantité t augmente avec d aussi bien qu'avec l'effectif 
des échantillons, de sorte que si t est très grand, cela ne signifie 
pas nécessairement que les populations sont très différentes, 
mais seulement qu'il y a plus de sujets qu'il n’en faut pour 
prouver cette différence. 

Les populations sont-elles très différentes ? La réponse est 
donnée par une mesure de divergence, que MAHALA- 
NOBIS définit ainsi (17): 

« C’est une estimation quantitative de la différence entre les 
deux groupes; elle doit répondre aux conditions suivantes : 


— être un scalaire, positif ou nul, indépendant des unités 
des variables ; 

— s’annuler lorsque les deux populations se confondent ; 

— étre constant, aux erreurs d’échantillonnage prés, pour 
des épreuves successives ; 

— augmenter avec la différence des moyennes. » 


Et nous ajouterons cette condition : une bonne mesure de 
divergence, calculée a partir des échantillons, doit avoir une 
distribution connue, permettant une estimation optima. Dans 

(m— m’)? 
notre exemple, —————— est une mesure de divergence; elle 


augmente uniquement avec d. 
Reprenons la comparaison de deux groupes humains : 
A, — Tests de divergence. 


Variables discontinues: on applique le test d’homo- 
généité x? et cela est possible quel que soit le nombre de carac- 
téres envisagés simultanément (14) et (15). 


Variables continues: nous n’envisageons que les va- 
riables continues qui ont une fonction de distribution 
simultanée normale (13). l 


Pour une seule variable, la comparaison de deux groupes se 
base sur le test t de SrubeNwr. Ce critère a été étendu au cas de 
plusieurs variables par HoteLLING (13 et 11). Le T? de HOTEL- 
LING est donc un test de divergence applicable à p variables en 
corrélation normale, 
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I 


, 


nn 
= Be d,d, (Di al ne 
n +w 
n et w sont les effectifs des deux échantillons). 
sy est la covariance des deux populations supposées identi- 
ques, estimée à partir des covariances de chaque échantillon. 
s’ est le mineur normé de la matrice des covariances sy. 


HOTELLING a calculé la fonction de distribution de T? et 
FISHER (6) a montré qu’un test de signification de T? est donné 
par sa distribution ¢ (8), où 

T? (n + n — p — 1) 
e = ———_____________ avec y = petn =n+ w —p—l. 
(n + w —2) p 

Pour une seule variable, T? = t? de Srupexr; le test de HoreL- 
LING généralise bien celui de STUDENT. A lP opposé du « coeffi- 
cient of racial likeness », T? tient compte des corrélations entre 
les variables. Il a encore sur le ©. R. L. Vavantage d’avoir une 
distribution connue, ce qui en fait un test exact. 


B. — Mesure de divergence. 


MAHALANOBIS, critiquant le C. R. L., a d’abord proposé une 
quantité qui n’en différait que par un facteur (16). Ensuite, 
il y a introduit les coefficients de corrélation. Perfectionnée 
par Bose et Roy, voici la mesure de divergence enfin adoptée, 
répondant aux exigences formulées plus haut. On l'appelle 
distance généralisée de MAHALANOBIS. 

1 
A? = — o” 9,9, où p est le nombre de variables; o, est l’élé- 
p 
ment ij de la matrice des covariances supposée identique dans 
les deux populations; «7 est le mineur normé de o,; à, est la 
différence entre les moyennes du teme caractère, Comme les 
paramétres tirés des populations ne sont jamais connus, on 
calcule une quantité analogue à A’, mais basée sur les données 
des échantillons. 
1 
D? = — sí d, d, 
p 
Bose et Roy (3) ont établi la distribution d’échautillonnage 
de D?; on peut donc estimer A? à partir de D’. 
> TEENS) 
En comparant T? et D?, on voit que D? = ; , de 
nw p 
sorte que, contrairement à T°, la distance généralisée ne dépend 
pas des effectifs des échantillons. 
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Examinons de pres la distance généralisée de deux popula- 
tions pour une variable (p=1), puis pour deux variables (p=2). 


8 
paill A = où ô est la différence entre les moyennes et 
o? 
r la dispersion commune aux deux populations. 
1 1 AO 2 p 01 da & \ 
p=2. A? = —, + où ô et à 
2 (1—hp:) Ce 0,0 oe ) 


sont les différences entre les moyennes, respectivement pour les 
caractères 1 et 2, o, et o, étant les dispersions et p la corréla- 
tion, communes aux deux populations. 


Placons ces données sur un graphique á deux dimensions 
(fig. 1). Soit Q, l’image des moyennes de la première popula- 
tion, Q, celle de la seconde. Parmi les ellipses d’égale proba- 
bilité entourant le point Q, et contenant un pourcentage donné 
de la première population, choisissons celle qui passe par Q. 
On montre facilement que tous les points de cette ellipse don- 
nent une même distance généralisée avec la première popula- 


A, 

tion: A? = —, les distances entre les tangentes à l’ellipse 
9 
dd 


parallèles à chacun des axes des coordonnées étant respective- 
ment 2Ac, et 210”. On voit ainsi que la distance généralisée 
n’est pas une distance géométrique. Par exemple, 
un point Q, géométriquement plus proche de Q, que Q,, est le 
centre d’une population qui donne avec la population 1 la même 
distance généralisée que la population 2. 
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A’ n’a guère été utilisé A ma connaissance. Sous sa première 
forme, MAHALANOBIS l’a comparé au C. R. L. dans la descrip- 
tion de diverses populations et castes de l’Inde (16). 


C. — Fonetion discriminatoire, pour la compa- 
raison de deux échantillons, 


fréquence 


taille 


Pigo 


Supposons données deux distributions de la taille pour des 
populations I et II, qui se recouvrent un peu mais sont cepen- 
dant bien distinctes (fig. 2). Supposons de plus que les disper- 
sions et les effectifs sont égaux. Seules les moyennes diffèrent. 
Si Pon veut classer, dans une des deux populations, un nouveau 
sujet dont on ignore l’origine, que fera-t-on? On le placera 
dans la population I s’il est à gauche de la droite a, et dans la 
population II s’il est à droite de a. En agissant ainsi, on se 
trompe fatalement pour un certain nombre de sujets, mais on 
est sûr que le nombre d’erreurs est minimum. On a effectué une 
bonne discrimination. 

Cas de deux variables. Les deux variables ont des 
variances et des coefficients de corrélation égaux dans les deux 
populations. Ces restrictions facilitent le raisonnement, mais 
elles sont abandonnées dans la suite. Représentons sur un dia- 
gramme à deux dimensions les points Q, et Q,, images des 
moyennes des populations et deux ellipses d’égale probabilité, 
par exemple celles qui contiennent 95 % des sujets de chaque 
population. Ces ellipses sont égales (fig. 3). 

Un nouveau sujet, d’origine inconnue, doit être placé dans 
l’une ou l’autre population, S’il est à gauche de a, on le place 
dans la premiére population; s'il est a druite de a, on le place 
dans la deuxiéme population. Comme dans le cas d’une seule 
variable, on a fait une bonne discrimination, parce que le 
nombre de sujets mal placés est minimum. 
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J'ai montré (*) que la droite a est l'image géométrique de 
la fonction discriminatoire de Fisher (6) et (7). 
X2 
a 
0 xy 
Iriya, 8}. 


Fisher présente cette fonction d'une toute autre façon. Si 


Ly, La, ... & sont les variables, il cherche des coefficients 
b,, b,, ... bp tels que la différence entre les moyennes de X = 
b; 2, + b; a + ... bp £p pour les deux populations, divisée par la 


dispersion de X, soit maxima. WELCH (23) montre que cette 
fonction de Fisnpr est la meilleure de toutes les fonctions de 
discrimination, linéaires ou non (dans le cas de variables nor- 
males). 

Reprenons un exemple de deux variables, supposons qu'il 
s'agisse de la longueur a, et de la largeur x, de la tête. Soit 
X = 6b, 2, + b; a, la fonction de FiısueRr et I = "indice 

Ly 
céphalique, que l’on peut considérer comme une fonction discri- 
minatoire non linéaire. La discrimination peut se faire à l’aide 
de X ou de I; mais celle de X est meilleure, parce que le nombre 
d’erreurs est moindre 

Dans ce problème précis de craniométrie, la fonction discri- 
minatoire est done plus efficace que l'indice céphalique. Cepen- 


(*) Cette démonstration doit paraitre dans ce Bulletin. 
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dant celui-ci a l’avantage sur X de permettre la description 
d’une population donnée, tandis que X est nécessairement asso- 
cié á deux populations en présence : I, au contraire de X, a un 
sens biologique. 

5. — Conclusion, En résumé, il semble que la biométrie 
met actuellement à la disposition de l'anthropologie des mé- 
thodes précises. Des progrès devraient venir de l’anthropologie 
même, où des enquêtes familiales et l’examen de jumeaux uni- 
vitellins feraient avancer les questions de l’hérédité des carac- 
tères continus. Sans doute, dans la mesure où les problèmes 
biologiques sont posés avec une précision insuffisante, les cher- 
cheurs ont raison de n’utiliser que des méthodes simples telles 
que les méthodes graphiques, qui ont l’avantage d’être plus 
rapides: des méthodes plus fines qui exigent de longs calculs 
n’y introduiraient qu'une rigueur illusoire, Mais, dans les pro- 
blèmes anthropologiques qu’on parvient à poser avec précision, 
les méthodes exactes dont nous avons parlé, s'appliquent avec 
toute leur efficacité. 

Qu'il me soit permis en terminant de remercier le docteur 
TWIESSELMANN qui m’a aidé de ses précieux conseils et de sa 
grande expérience en anthropologie. 
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